我们提升了一个具有多个注释的开放数据集,可以补充现有的ISIC和PH2皮肤病变分类数据集。此数据集包含非专家注释来源的Visual ABC(不对称,边框,颜色)功能:本科生,来自亚马逊MTURK的人群工人和经典图像处理算法。在本文中,我们首先分析了病变的注释与诊断标签之间的相关性,以及研究不同的注释来源之间的协议。总的来说,我们发现非专家注释与诊断标签的相关性较弱,不同的注释源之间的低协议。然后,我们将多任务学习(MTL)与额外标签一起研究,并表明非专家注释可以通过MTL改进(集成)最先进的卷积神经网络。我们希望我们的数据集可以用于进一步研究多个注释和/或MTL。 GitHub上提供所有数据和模型:https://github.com/raumannsr/enhance。
translated by 谷歌翻译
This paper describes the system developed at the Universitat Polit\`ecnica de Catalunya for the Workshop on Machine Translation 2022 Sign Language Translation Task, in particular, for the sign-to-text direction. We use a Transformer model implemented with the Fairseq modeling toolkit. We have experimented with the vocabulary size, data augmentation techniques and pretraining the model with the PHOENIX-14T dataset. Our system obtains 0.50 BLEU score for the test set, improving the organizers' baseline by 0.38 BLEU. We remark the poor results for both the baseline and our system, and thus, the unreliability of our findings.
translated by 谷歌翻译
最近在自动手语理解中的具有挑战性的任务(例如手语识别,翻译和生产)方面取得了重大进展。但是,这些作品集中在相对较少的样本,简短录音以及有限的词汇和签名空间的数据集上。在这项工作中,我们介绍了手语主题检测的新颖任务。我们基于跨越多个语义域的大规模视频数据集的2sign的实验。我们为主题检测的任务提供了强大的基础,并在手语领域常用的不同视觉特征之间进行了比较。
translated by 谷歌翻译
视频识别是由端到端学习范式主导的 - 首先初始化具有预审预周化图像模型的视频识别模型,然后对视频进行端到端培训。这使视频网络能够受益于验证的图像模型。但是,这需要大量的计算和内存资源,以便在视频上进行填充以及直接使用预审计的图像功能的替代方案,而无需填充图像骨架会导致结果不足。幸运的是,在对比视力语言预训练(剪辑)方面的最新进展为视觉识别任务的新途径铺平了道路。这些模型在大型开放式图像文本对数据上进行了预测,以丰富的语义学习强大的视觉表示。在本文中,我们介绍了有效的视频学习(EVL) - 一种有效的框架,用于直接训练具有冷冻剪辑功能的高质量视频识别模型。具体来说,我们采用轻型变压器解码器并学习查询令牌,从剪辑图像编码器中动态收集帧级空间特征。此外,我们在每个解码器层中采用局部时间模块,以发现相邻帧及其注意力图的时间线索。我们表明,尽管有效地使用冷冻的骨干训练,但我们的模型在各种视频识别数据集上学习了高质量的视频表示。代码可在https://github.com/opengvlab/feld-video-rencognition上找到。
translated by 谷歌翻译
我们提出了姿势-NDF,这是基于神经距离场(NDFS)的合理人姿势的连续模型。姿势或运动先验对于产生现实的新姿势和重建噪音或部分观察的准确姿势很重要。 Pose-NDF学习了一个合理姿势的多种姿势作为神经隐式函数的零级集合,将3D中隐式表面建模的概念扩展到高维域So(3)^k,其中人姿势由A定义为一个由A定义的。单个数据点,由k四元组表示。所得的高维隐式函数可以相对于输入姿势有区别,因此可以通过在3维超球体的集合上使用梯度下降来将任意姿势投射到歧管上。与以前基于VAE的人姿势先验相反,将姿势空间转化为高斯分布,我们对实际的姿势歧管进行了建模,并保留了姿势之间的距离。我们证明,POSENDF在各种下游任务中的先验胜过现有的最新方法,从降级现实世界的人类MOCAP数据,从遮挡数据恢复到从图像中恢复到3D姿势重建。此外,我们证明它可以用来通过随机抽样和投影来产生更多的姿势,而不是基于VAE的方法。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
我们研究了在高维度中具有恒定步骤的随机梯度下降(SGD)的缩放限制。我们证明,随着尺寸为无穷大,SGD的摘要统计轨迹(即有限维函数)的轨迹限制了定理。我们的方法允许人们选择所跟踪的摘要统计信息,初始化和步进尺寸。它同时产生弹道(ODE)和扩散(SDE)极限,其极限取决于以前的选择。有趣的是,我们发现了阶梯尺寸的临界缩放机制,在该尺寸下,有效的弹道动力学与人口损失相匹配,但是在此期间,出现了一个新的校正项,从而改变了相图。关于这种有效动力学的固定点,相应的扩散极限可能非常复杂,甚至退化。我们在流行示例中演示了我们的方法,包括估算峰值矩阵和张量模型以及通过两层网络进行二进制和XOR型高斯混合模型的分类。这些示例表现出令人惊讶的现象,包括多模式的时间尺度到收敛以及融合到亚最佳溶液中,概率从随机(例如高斯)初始化范围内偏离零。
translated by 谷歌翻译
当前的3D分割方法很大程度上依赖于大规模的点状数据集,众所周知,这些数据集众所周知。很少有尝试规避需要每点注释的需求。在这项工作中,我们研究了弱监督的3D语义实例分割。关键的想法是利用3D边界框标签,更容易,更快地注释。确实,我们表明只有仅使用边界框标签训练密集的分割模型。在我们方法的核心上,\ name {}是一个深层模型,灵感来自经典的霍夫投票,直接投票赞成边界框参数,并且是专门针对边界盒票的专门定制的群集方法。这超出了常用的中心票,这不会完全利用边界框注释。在扫描仪测试中,我们弱监督的模型在其他弱监督的方法中获得了领先的性能(+18 MAP@50)。值得注意的是,它还达到了当前完全监督模型的50分数的地图的97%。为了进一步说明我们的工作的实用性,我们在最近发布的Arkitscenes数据集中训练Box2mask,该数据集仅使用3D边界框注释,并首次显示引人注目的3D实例细分掩码。
translated by 谷歌翻译
In Neural Machine Translation (NMT), each token prediction is conditioned on the source sentence and the target prefix (what has been previously translated at a decoding step). However, previous work on interpretability in NMT has mainly focused solely on source sentence tokens' attributions. Therefore, we lack a full understanding of the influences of every input token (source sentence and target prefix) in the model predictions. In this work, we propose an interpretability method that tracks input tokens' attributions for both contexts. Our method, which can be extended to any encoder-decoder Transformer-based model, allows us to better comprehend the inner workings of current NMT models. We apply the proposed method to both bilingual and multilingual Transformers and present insights into their behaviour.
translated by 谷歌翻译
我们提出了TOCH,这是一种使用数据先验来完善不正确的3D手对象交互序列的方法。现有的手动跟踪器,尤其是那些依靠很少相机的手动跟踪器,通常会通过手动相交或缺失的触点产生视觉上不切实际的结果。尽管纠正此类错误需要有关交互的时间方面的推理,但大多数以前的作品都集中在静态抓取和触点上。我们方法的核心是Toch Fields,这是一种新颖的时空表示,用于在交互过程中建模手和物体之间的对应关系。 Toch字段是一个以对象为中心的表示,它相对于对象编码手的位置。利用这种新颖的表示,我们学习了具有暂时性的自动编码器的合理象征领域的潜在流形。实验表明,Toch优于最先进的3D手动相互作用模型,这些模型仅限于静态抓取和触点。更重要的是,我们的方法甚至在接触之前和之后都会产生平滑的相互作用。使用单个训练有素的TOCH模型,我们定量和定性地证明了其有用性,可用于纠正现成的RGB/RGB/RGB-D手动重建方法,并跨对象传输grasps。
translated by 谷歌翻译